标签【Reinforcement Learning】

Gumbel-Softmax Trick和Gumbel分布

之前看MADDPG论文的时候，作者提到在离散的信息交流环境中，使用了Gumbel-Softmax estimator。于是去搜了一下，发现该技巧应用甚广，如深度学习中的各种GAN、强化学习中的A2 ...

自然语言处理(一) 关系抽取

Relation Extraction 信息抽取在自然语言处理中是一个很重要的工作，特别在当今信息爆炸的背景下，显得格外的生重要。从海量的非结构外的文本中抽取出有用的信息，并结构化成下游工作可用的格 ...

AlphaGo原理浅析

论文笔记：Mastering the game of Go with deep neural networks and tree search 背景：完全信息博弈与MCTS算法要完全弄清Alph ...

MADDPG原文链接 OpenAI blog DDPG链接目录一、摘要二、效果展示三、方法细节问题分析具体方法伪代码 ...

NLP | 文本风格迁移总结

简介对于文本风格迁移，先举个例子： Input：谢谢 Output（金庸）：多谢之至 Input：再见 Output（金庸）：别过! Input：请问您贵性？ O ...

强化学习(Reinforcement Learning)

强化学习(Reinforcement Learning) 作者：凯鲁嘎吉 - 博客园 http://www.cnblogs.com/kailugaji/ 通过阅读《神经网络与深度学 ...

DQN算法原理详解

一、概述强化学习算法可以分为三大类：value based, policy based 和 actor critic。常见的是以DQN为代表的value based算法，这种 ...

双层优化问题：统一GAN，演员-评论员与元学习方法 (Bilevel Optimization Problem unifies GAN, Actor-Critic, and Meta-Learnin ...

强化学习——值迭代和策略迭代

【强化学习】值迭代和策略迭代在强化学习中我们经常会遇到策略迭代与值迭代，但是很多人都搞不清楚他们两个之间的区别，他们其实都是强化学习中的动态规划方法（DP）。 ——《Reinforcemen ...

离线强化学习(A Survey on Offline Reinforcement Learning) 作者：凯鲁嘎吉 - 博客园 http://www.cnblogs.com/kailugaji/ ...